La récidive carcérale est une problématique majeure pour les systèmes pénitentiaires et judiciaires à travers le monde. Comprendre les dynamiques qui influencent le retour en détention permet d’éclairer les politiques de réinsertion et d’optimiser les ressources allouées à la prévention. Aux États-Unis, l’État de l’Iowa publie chaque année des données détaillées sur les taux de récidive des anciens détenus, offrant une opportunité d’analyse approfondie sur la durée avant réincarcération et les facteurs qui influencent ce phénomène.
Dans ce projet, nous nous intéressons aux données issues du Iowa Department of Corrections sur la récidive carcérale et le taux de réinsertion réussie. Cette base de données suit les individus libérés de prison sur une période de trois ans et indique s’ils ont été réincarcérés pour une nouvelle infraction ou une violation technique de leur libération conditionnelle. L’analyse des durées de survie jusqu’à la réincarcération nous permettra d’examiner les trajectoires post-carcérales et d’évaluer l’efficacité des politiques de réinsertion en place.
Quels sont les facteurs qui influencent la récidive des détenus en Iowa ? Peut-on prédire le moment où un individu a le plus de risque de récidiver après sa sortie de prison ? Et quels modèles statistiques et algorithmes d’apprentissage permettent d’optimiser ces prédictions ?
Ce projet vise à :
Analyser les durées de survie avant la récidive à l’aide d’estimateurs non paramétriques comme Kaplan-Meier et Nelson-Aalen.
Comparer les taux de récidive selon différents groupes d’individus à l’aide du test du log-rank.
Modéliser le risque de réincarcération à l’aide du modèle de Cox semi-paramétrique et/ou de modèles paramétriques adaptés.
Appliquer un algorithme d’apprentissage machine (forêts aléatoires de survie, CoxBoosting ou SVM de survie) afin d’améliorer les prédictions et d’optimiser les décisions de réinsertion.
Ce travail s’appuie sur des méthodes statistiques et de machine learning adaptées aux données de survie :
Ce projet combinera des outils statistiques classiques et des méthodes modernes d’apprentissage afin d’explorer les trajectoires des anciens détenus en Iowa. En identifiant les facteurs clés de la récidive et en testant différents modèles prédictifs, nous espérons contribuer à une meilleure compréhension du phénomène et offrir des pistes d’amélioration pour la réinsertion des anciens détenus.
Présentation des Variables Les données utilisées dans le cadre de cette étude proviennent principalement de : Accéder aux données de l’Etat d’Iowa aux Etats Unis
Le graphique montre que le taux de récidive global (Recidivism_Rate en bleu) a fortement augmenté en 2021, suivi d’une diminution progressive jusqu’en 2024. Cette tendance est observée à la fois pour les nouveaux crimes (New_Crime en rouge) et les violations techniques (Technical_Violation en vert), bien que les nouveaux crimes soient plus fréquents chaque année. Le pic de 2021 pourrait s’expliquer par la reprise des contrôles judiciaires après la pandémie de COVID-19, tandis que la baisse ensuite suggère une stabilisation ou une amélioration des mesures de réinsertion.
En comparant les types de récidive, les nouveaux crimes restent plus fréquents que les violations techniques sauf en 2021, où les deux sont presque équivalents. Cela pourrait indiquer une pression accrue sur le système de probation cette année-là. La tendance générale montre une diminution continue de la récidive, ce qui pourrait être le résultat de politiques de suivi plus efficaces.
Special Sentence 2005 a effectivement le taux de récidive le plus élevé, ce qui suggère que cette peine n’est pas efficace pour prévenir la récidive malgré son intention dissuasive. Viennent ensuite les Felony - Mandatory Minimum et Felony - Enhancement to Original Penalty, montrant que même des peines sévères n’empêchent pas la récidive. Cela peut indiquer un manque de réhabilitation pour ces condamnations. Les Serious Misdemeanor suivent avec un taux de récidive modéré, tandis que les Felony A ont le taux le plus faible, probablement en raison de peines longues réduisant le risque de récidive à court terme. En résumé, les peines spéciales et les crimes avec des pénalités accrues n’empêchent pas la récidive, suggérant une nécessité de revoir les stratégies de réinsertion pour ces groupes. Les crimes graves (Felony A et B), bien que sévères, semblent mieux dissuader la récidive.
Ces résultats montrent une variation notable selon les groupes raciaux, en particulier pour les American Indian or Alaska Native. Cela pourrait indiquer des différences dans les expériences de réinsertion ou dans les circonstances socio-économiques après la libération. Les Asian or Pacific Islander ayant le taux le plus faible pourraient refléter des différences culturelles ou communautaires favorisant la réintégration.
Répartition des Motifs de Libération
Concernant le graphique ( Répartition des Motifs de
Libération), le motif de libération prédominant est la
libération conditionnelle (“Parole Granted”, 65.4%), suivi de
la fin de peine (“Discharged - Expiration of Sentence”,
19%). Cela montre une dépendance significative au
système de libération conditionnelle, ce qui pourrait expliquer
un risque accru de récidive si le suivi post-libération
est insuffisant. La libération sous “Special Sentence”
représente 4.46%, mais son taux de récidive
élevé observé dans d’autres graphiques mérite une analyse
approfondie pour évaluer l’efficacité de cette mesure.
Enfin le graphique (Répartition des Individus Réincarcérés par Type d’Infraction),nous permet de dire que les infractions contre la propriété (Property, 29.4%) et les délits liés à la drogue (Drug, 26.5%) sont les principaux motifs de réincarcération, suivis des crimes violents (Violent, 19.4%). La dominance des délits liés à la propriété et à la drogue suggère que les récidivistes retournent souvent à des crimes liés à des motivations économiques ou à la dépendance. Les violations de l’ordre public (Public Order, 10.4%) et les autres délits (Other, 14.3%) sont moins fréquents, mais indiquent une variété de comportements criminels parmi les récidivistes.
Le graphique(Répartition des Individus Réincarcérés par Classe d’Infraction) montre que la majorité des récidivistes ont été réincarcérés pour des infractions de classe D Felony (39.9%) et C Felony (28.5%), suivies des Aggravated Misdemeanor (13.1%). Les infractions plus graves (A Felony, B Felony) représentent une part extrêmement faible, ce qui suggère que les récidivistes ont tendance à commettre des crimes moins graves lors de leurs récidives. Cela pourrait indiquer soit une intensité criminelle réduite, soit une efficacité partielle des programmes de réinsertion.
NB: Dans le cadre de notre étude sur la récidive carcérale en Iowa, nous avons rencontré un défi méthodologique important : la gestion des individus non-récidivistes dans notre analyse de survie. En effet, la base de données fournit une variable survival_months, qui indique la durée avant réincarcération pour les individus ayant récidivé. Cependant, pour les individus n’ayant pas récidivé, cette variable est absente (NA), ce qui pose un problème d’interprétation et d’intégration dans nos modèles de survie.
Pourquoi est-il nécessaire de fixer une durée maximale de suivi ?
L’analyse de survie repose sur l’observation de la durée jusqu’à un événement (ici, la réincarcération). Pour les individus ayant récidivé, survival_months représente cette durée. En revanche, pour les non-récidivistes, nous savons uniquement qu’ils n’ont pas récidivé pendant la période d’étude, sans connaître leur durée exacte d’observation.
Si nous laissons ces valeurs à NA, les modèles de survie (Kaplan-Meier, Nelson-Aalen, ou Cox) ignorent ces individus, ce qui entraîne un biais d’échantillonnage et une sous-estimation des probabilités de survie.
Solution adoptée : Censure à droite avec une durée maximale de suivi
Pour résoudre ce problème, nous avons appliqué une approche courante en analyse de survie, appelée censure à droite, en attribuant aux non-récidivistes une durée d’observation maximale, qui est de 42 mois .
Pourquoi 42 mois ?
Dans notre jeu de données, la durée maximale observée avant récidive est de 36.5 mois. Pour garantir que les non-récidivistes sont bien pris en compte sans introduire d’ambiguïté sur les limites du suivi, nous avons fixé la durée maximale de survie à 42 mois.
Ce choix repose sur les considérations suivantes :
Respect du cadre temporel de l’étude : La période d’observation couvre jusqu’à 3 ans (36 mois) après la sortie de prison, mais il est prudent d’ajouter une légère marge pour éviter des effets de bord.
Garantir une bonne prise en compte des non-récidivistes : En leur attribuant une durée d’observation légèrement supérieure au maximum observé chez les récidivistes, nous évitons d’éliminer des individus censurés de manière arbitraire.
Consistance avec les analyses futures : Cette valeur garantit que l’ensemble des individus sont considérés dans l’analyse tout en maintenant une cohérence avec les données existantes.
Conséquences sur l’interprétation des résultats
Un individu ayant survival_months = X > 36.5 avec reincarcerated = 0 signifie qu’il n’a pas récidivé dans les 3 ans suivant sa sortie.
Un individu ayant survival_months = X < 36.5 avec reincarcerated = 1 signifie qu’il a récidivé après X mois.
Ainsi, notre analyse de survie à l’aide de Kaplan-Meier et Nelson-Aalen reflète correctement la dynamique de récidive au sein des cohortes étudiées.
La probabilité de non-récidive diminue progressivement avec le temps, passant de 100% à environ 70% après 27.5 mois, et continue de diminuer par la suite. Cela signifie qu’environ 30% des individus récidivent dans les 2 à 3 ans suivant leur libération. La pente est relativement régulière, montrant un risque de récidive constant sur toute la période, sans point de rupture significatif. Cela suggère que le risque de récidive est présent de manière continue après la libération, nécessitant un suivi prolongé.
Les hommes ont une probabilité de non-récidive plus faible que les femmes tout au long de la période observée. Les femmes montrent une meilleure survie sans récidive, avec environ 72% n’ayant pas récidivé après 40 mois, contre 63% pour les hommes. La différence est statistiquement significative, indiquant que le sexe est un facteur prédictif important de la récidive. Cela confirme des tendances criminologiques où les femmes récidivent généralement moins souvent que les hommes.
Les infractions “Other” (jaune-marron) présentent la récidive la plus rapide, avec une chute brutale de la probabilité de non-récidive dans les premiers mois. De plus, l’intervalle de confiance est plus large pour ce groupe, indiquant une incertitude plus grande dans l’estimation du risque de récidive. Cela peut être dû à un effectif plus faible ou à une hétérogénéité des infractions classées “Other”. Il serait donc plus pertinent d’avoir des précisions sur la nature exacte des crimes inclus dans cette catégorie.
Les infractions liées aux biens (“Property”, en vert) et aux drogues (“Drug”, en rouge) suivent une tendance similaire, avec une baisse progressive de la probabilité de non-récidive. Toutefois, une inversion se produit après environ 20 mois :
Dans les premiers mois, les infractions contre la propriété récidivent plus vite, probablement car ces crimes sont souvent motivés par des besoins économiques immédiats (ex: vols, cambriolages).
Après environ 20 mois, la situation change : Les infractions liées à la drogue affichent une récidive plus tardive mais plus persistante. Cela pourrait s’expliquer par un effet de rechute progressive dans l’addiction. Certains détenus libérés parviennent initialement à éviter la récidive, mais finissent par rechuter après un certain temps, entraînant de nouvelles infractions liées à la drogue. À l’inverse, les récidivistes liés aux infractions contre la propriété semblent mieux stabiliser leur comportement criminel, soit grâce à une réinsertion réussie, soit via d’autres facteurs sociaux (emploi, famille, suivi judiciaire).
Enfin, les infractions violentes (“Violent”, en violet) et celles contre l’ordre public (“Public Order”, en bleu clair) présentent les meilleures probabilités de non-récidive sur toute la période. Cela signifie que les individus ayant commis ces infractions mettent plus de temps à récidiver, possiblement en raison de peines plus longues ou d’un suivi post-incarcération plus strict.
Les individus sous Work Release récidivent plus rapidement que ceux libérés directement après leur peine en prison. L’intervalle de confiance du groupe Work Release est plus large, ce qui peut refléter une variabilité plus élevée dans le risque de récidive pour ces individus.
Après 40 mois, la probabilité de non-récidive est plus faible pour le groupe Work Release que pour le groupe Prison, confirmant un risque de récidive plus élevé. En revanche, l’intervalle de confiance plus serré pour le groupe Prison indique une estimation plus stable de la probabilité de non-récidive.
Dès les premiers mois, un écart marqué apparaît entre les deux groupes, suggérant que le programme Work Release n’empêche pas nécessairement une récidive rapide.
Hypothèses et Explications Possibles :
✔ Moins de supervision après Work Release ?
→ Les individus placés en Work Release peuvent
bénéficier d’un suivi post-libération moins strict ou
rencontrer plus de difficultés d’adaptation après cette
transition.
✔ Un profil de détenus plus à risque ?
→ Il est possible que les détenus sélectionnés pour Work Release
soient déjà plus à risque de récidiver, expliquant leur taux de
récidive plus élevé.
✔ Un impact limité sur la réinsertion ?
→ Le programme Work Release vise à faciliter la
réintégration, mais s’il n’améliore pas
significativement l’accès à l’emploi ou au logement, cela
pourrait expliquer un taux de récidive plus élevé.
Conclusion :
En somme, les détenus sous Work Release récidivent plus rapidement et plus souvent que ceux libérés après avoir purgé leur peine en prison.
L’efficacité du programme Work Release mérite d’être réévaluée : un accompagnement renforcé après la libération pourrait être nécessaire pour réduire le risque de récidive.
Enfin, des études supplémentaires devraient explorer
les facteurs expliquant cette différence :
- Est-elle liée au profil des détenus ?
- Au suivi post-libération ?
- À des difficultés spécifiques d’adaptation à la société
?
Les Amérindiens/Alaska Natives ont le taux de récidive le plus rapide, avec une grande variabilité individuelle. Leur faible effectif pourrait influencer cette tendance, nécessitant une analyse plus approfondie.
Les Asiatiques/Insulaires du Pacifique semblent mieux résister à la récidive, mais l’incertitude statistique élevée rend cette conclusion fragile.
Les Noirs, Hispaniques et Blancs suivent une tendance plus stable et comparable, sans écart marquant permettant d’affirmer des différences significatives.
Les sauts observés sur certaines courbes (notamment les Amérindiens/Alaska Natives) suggèrent une récidive en “paliers” plutôt que continue, probablement due à des sous-groupes récidivant soudainement.
Conclusion : Pour ces trois groupes, la survie sans récidive suit une tendance similaire, sans disparités majeures visibles sur cette courbe. Les tendances observées pour les groupes aux effectifs les plus faibles doivent être interprétées avec prudence. Il serait pertinent d’examiner des données supplémentaires pour confirmer ces différences et adapter les politiques de réinsertion en conséquence.
✔ Un risque de récidive qui s’accumule progressivement : L’augmentation continue du hasard cumulé montre que les anciens détenus restent exposés à un risque de récidive tout au long de la période observée.
✔ Un suivi sur le long terme est nécessaire : Puisque le risque ne se stabilise pas, des politiques de réinsertion doivent être mises en place durablement pour minimiser la récidive.
✔ L’absence de rupture indique une répartition homogène du risque : Il n’y a pas de moment critique où le risque explose ou ralentit, ce qui suggère une nécessité de prévention dès la sortie de prison et sur une période prolongée.
✔ L’intervalle de confiance est stable, garantissant une bonne fiabilité de l’estimation.
✔ Une analyse plus fine des sous-groupes (par type d’infraction, âge, etc.) pourrait révéler des différences dans le rythme de récidive, permettant d’ajuster les politiques de réinsertion en fonction des profils les plus vulnérables.
NB: Vous trouverez en annexe l’Estimateur de Nelson-Aalen de la fonction de risque cumulé par groupe.
L’analyse de survie menée sur la récidive des anciens détenus a révélé des écarts significatifs entre certains groupes, notamment en fonction du sexe et de l’origine raciale. Pour vérifier si ces différences sont statistiquement significatives, nous avons retenu l’application de tests du log-rank sur deux comparaisons clés : hommes vs femmes et différentes races.
La comparaison entre hommes et femmes est justifiée par l’observation d’un risque cumulé de récidive plus élevé chez les hommes. Le test du log-rank permettra de confirmer si ces différences sont réelles et non dues au hasard, et ainsi d’orienter les politiques de réinsertion différenciées en fonction du sexe.
La comparaison entre groupes raciaux vise à détecter d’éventuelles inégalités structurelles dans la récidive. Nos analyses ont montré que les Amérindiens/Alaska Natives présentent un risque de récidive beaucoup plus élevé, tandis que les Blancs et Asiatiques récidivent moins. Vérifier statistiquement ces écarts permettrait de justifier des réformes ciblées pour améliorer la réinsertion des groupes les plus vulnérables.
Si les résultats des tests du log-rank confirment que ces différences sont significatives, cela donnerait des bases solides pour adapter les programmes de suivi post-libération, améliorer l’accompagnement social des détenus à risque, et réduire les inégalités dans la réinsertion. En somme, ces tests apporteraient des éléments concrets pour guider des politiques publiques plus efficaces dans la prévention de la récidive.
## Call:
## survdiff(formula = Surv(survival_months, reincarcerated) ~ sex,
## data = iowa_data)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## sex=Female 425 120 163 11.15 13
## sex=Male 2747 1016 973 1.86 13
##
## Chisq= 13 on 1 degrees of freedom, p= 3e-04
Le test du log-rank confirme que la différence de récidive entre hommes et femmes est statistiquement significative (p < 0.05). Les femmes ont une probabilité de récidive plus faible que les hommes, comme l’avaient déjà suggéré les analyses graphiques. L’écart observé ne pouvant être attribué au hasard, cela justifie l’adoption de politiques de réinsertion différenciées selon le sexe afin d’optimiser la prévention de la récidive.
Ces résultats soulignent l’importance d’un suivi post-libération renforcé pour les hommes, dont le risque de récidive est significativement plus élevé. À l’inverse, les femmes pourraient bénéficier de programmes d’accompagnement adaptés, tenant compte des facteurs influençant leur meilleure survie sans récidive. L’adaptation des politiques de réinsertion en fonction du sexe apparaît ainsi comme une mesure nécessaire pour réduire efficacement la récidive et améliorer la réinsertion des anciens détenus.
## Call:
## survdiff(formula = Surv(survival_months, reincarcerated) ~ race,
## data = iowa_data)
##
## N Observed Expected (O-E)^2/E
## race=American Indian or Alaska Native 75 34 25.0 3.2173
## race=Asian or Pacific Islander 26 7 10.0 0.9068
## race=Black 655 241 237.2 0.0600
## race=Hispanic 170 63 61.9 0.0209
## race=White 2246 791 801.9 0.1474
## (O-E)^2/V
## race=American Indian or Alaska Native 3.2945
## race=Asian or Pacific Islander 0.9160
## race=Black 0.0760
## race=Hispanic 0.0221
## race=White 0.5017
##
## Chisq= 4.4 on 4 degrees of freedom, p= 0.4
Le test du log-rank pour la comparaison des races montre que les différences de récidive entre groupes raciaux ne sont pas statistiquement significatives (p = 0.4). Bien que les Amérindiens/Alaska Natives aient un taux de récidive observé plus élevé que prévu, et que d’autres groupes présentent de légers écarts, ces variations ne sont pas assez marquées pour être considérées comme non dues au hasard.
Ainsi, on ne peut pas conclure que la race influence directement la récidive. D’autres facteurs, comme le type d’infraction, le suivi post-libération ou les conditions de réinsertion, pourraient être plus déterminants. Une analyse plus approfondie via un modèle de Cox multivarié pourrait aider à identifier les véritables facteurs de risque de récidive.
## Call:
## coxph(formula = Surv(survival_months, reincarcerated) ~ sex +
## race + age + offense_type + supervision_type, data = iowa_data)
##
## n= 3172, number of events= 1136
##
## coef exp(coef) se(coef) z Pr(>|z|)
## sexMale 0.377157 1.458133 0.098293 3.837 0.000125 ***
## raceAsian or Pacific Islander -0.498171 0.607641 0.415508 -1.199 0.230549
## raceBlack -0.308994 0.734185 0.183467 -1.684 0.092144 .
## raceHispanic -0.205681 0.814093 0.213232 -0.965 0.334750
## raceWhite -0.262241 0.769326 0.175253 -1.496 0.134561
## age -0.019382 0.980805 0.003081 -6.290 3.17e-10 ***
## offense_typeOther 0.542137 1.719679 0.098608 5.498 3.84e-08 ***
## offense_typeProperty -0.091865 0.912228 0.080706 -1.138 0.255010
## offense_typePublic Order -0.246768 0.781322 0.109061 -2.263 0.023657 *
## offense_typeViolent -0.424295 0.654231 0.089616 -4.735 2.20e-06 ***
## supervision_typeWork Release 0.318002 1.374379 0.065621 4.846 1.26e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## exp(coef) exp(-coef) lower .95 upper .95
## sexMale 1.4581 0.6858 1.2026 1.7679
## raceAsian or Pacific Islander 0.6076 1.6457 0.2691 1.3719
## raceBlack 0.7342 1.3621 0.5124 1.0519
## raceHispanic 0.8141 1.2284 0.5360 1.2365
## raceWhite 0.7693 1.2998 0.5457 1.0846
## age 0.9808 1.0196 0.9749 0.9867
## offense_typeOther 1.7197 0.5815 1.4175 2.0863
## offense_typeProperty 0.9122 1.0962 0.7788 1.0686
## offense_typePublic Order 0.7813 1.2799 0.6310 0.9675
## offense_typeViolent 0.6542 1.5285 0.5488 0.7799
## supervision_typeWork Release 1.3744 0.7276 1.2085 1.5630
##
## Concordance= 0.601 (se = 0.008 )
## Likelihood ratio test= 152.9 on 11 df, p=<2e-16
## Wald test = 153.5 on 11 df, p=<2e-16
## Score (logrank) test = 156.8 on 11 df, p=<2e-16
Le modèle de Cox estime l’impact de plusieurs variables (sexe, race, âge, type d’infraction, type de supervision) sur le risque de récidive. L’interprétation des coefficients (coef) et des rapports de risque (exp(coef)) permet d’identifier les facteurs influençant significativement la récidive.
Facteurs augmentant significativement le risque de récidive :
Le sexe masculin (HR = 1.46, p < 0.001) → Un homme a un risque de récidive de 46% plus élevé qu’une femme, ce qui confirme la nécessité d’un suivi renforcé des hommes après libération.
Le type d’infraction “Other” (HR = 1.72, p < 0.001) → Les individus ayant commis une infraction classée “Other” ont un risque de récidive 72% plus élevé que ceux ayant commis une infraction de classe “Drug”, ce qui suggère qu’ils sont plus vulnérables à la rechute.
Le type de supervision “Work Release” (HR = 1.37, p < 0.001) → Les individus libérés sous Work Release ont un risque de récidive 37% plus élevé que ceux libérés après une peine complète en prison, indiquant que ce programme pourrait nécessiter une révision pour améliorer son efficacité.
Facteurs réduisant significativement le risque de récidive :
L’âge (HR = 0.98, p < 0.001) → Chaque année supplémentaire réduit le risque de récidive de 2%. Ainsi, un écart d’une décennie entre deux individus diminue le risque de près de 18% (exp(-0.019 * 10) = 0.82). Cela souligne l’importance de stratégies de réinsertion spécifiques aux jeunes détenus, qui sont plus enclins à récidiver.
Les infractions contre l’ordre public (HR = 0.78, p < 0.05) et les infractions violentes (HR = 0.65, p < 0.001) sont associées à un risque de récidive plus faible par rapport à la catégorie de référence. Cela pourrait s’expliquer par des peines plus longues et un suivi post-incarcération plus strict pour ces types de crimes.
Facteurs non significatifs :
La race n’a pas d’effet significatif sur la récidive (p > 0.05 pour
toutes les catégories raciales), suggérant que les différences observées
dans les courbes de survie ne sont pas directement liées à la race une
fois ajustées pour d’autres variables. Les infractions liées à la
propriété ne montrent pas d’impact significatif sur la récidive.
Le modèle de Cox confirme que le sexe et le type de supervision sont des facteurs déterminants de la récidive, avec un risque accru pour les hommes et les détenus en Work Release, justifiant ainsi des politiques de suivi renforcé pour ces groupes. L’âge joue un rôle protecteur, les détenus plus âgés ayant un risque de récidive plus faible, ce qui suggère que les stratégies de réinsertion devraient cibler en priorité les plus jeunes. Le type d’infraction influence également la récidive : les infractions classées “Other” présentent le risque le plus élevé, tandis que les infractions violentes et celles contre l’ordre public sont associées à un risque plus faible. En revanche, la race n’a pas d’effet significatif sur la récidive, remettant en question l’hypothèse de disparités raciales après ajustement pour d’autres variables.
Le modèle de Cox suppose que les effets des covariables ne varient pas dans le temps. On teste cela avec les résidus de Schoenfeld.
## chisq df p
## sex 2.036 1 0.1536
## race 9.317 4 0.0536
## age 0.378 1 0.5389
## offense_type 7.198 4 0.1258
## supervision_type 6.309 1 0.0120
## GLOBAL 26.380 11 0.0057
Le test de Schoenfeld examine si les effets des covariables restent constants dans le temps. Si p < 0.05, l’hypothèse des risques proportionnels est violée pour cette variable
Sex, âge et offense type respectent l’hypothèse → OK 👍
Race est limite (p = 0.0536) → On peut tester avec un effet temps-dépendant
Supervision type viole l’hypothèse (p = 0.0120) → Il faut modifier le modèle
Le test global (p = 0.0057) est significatif → Il y a au moins une violation
Cox semi-paramétrique est problématique, car au moins une variable viole l’hypothèse.
Conclusion : Faut-il garder Cox ou passer à un modèle paramétrique ?
Comme l’hypothèse des risques proportionnels est violée, on peut tester un modèle paramétrique, en particulier Weibull.
##
## Call:
## survreg(formula = Surv(survival_months, reincarcerated) ~ sex +
## race + age + offense_type + supervision_type, data = iowa_data,
## dist = "weibull")
## Value Std. Error z p
## (Intercept) 3.856713 0.226288 17.04 < 2e-16
## sexMale -0.382022 0.098629 -3.87 0.00011
## raceAsian or Pacific Islander 0.511410 0.415309 1.23 0.21817
## raceBlack 0.317416 0.183402 1.73 0.08350
## raceHispanic 0.212189 0.213076 1.00 0.31933
## raceWhite 0.274674 0.175196 1.57 0.11693
## age 0.019734 0.003110 6.35 2.2e-10
## offense_typeOther -0.549399 0.099268 -5.53 3.1e-08
## offense_typeProperty 0.097655 0.080649 1.21 0.22594
## offense_typePublic Order 0.252851 0.109103 2.32 0.02047
## offense_typeViolent 0.436382 0.090123 4.84 1.3e-06
## supervision_typeWork Release -0.321360 0.065964 -4.87 1.1e-06
## Log(scale) -0.000882 0.027664 -0.03 0.97456
##
## Scale= 0.999
##
## Weibull distribution
## Loglik(model)= -6191.8 Loglik(intercept only)= -6271.3
## Chisq= 159.03 on 11 degrees of freedom, p= 2.1e-28
## Number of Newton-Raphson Iterations: 5
## n= 3172
Le modèle de survie paramétrique ajusté utilise une distribution de Weibull pour estimer l’effet des variables explicatives sur le temps avant la récidive. Contrairement au modèle de Cox, qui est semi-paramétrique, ce modèle suppose une structure paramétrique spécifique pour la durée de survie, ce qui permet d’obtenir des estimations plus précises sur la forme du risque de récidive au fil du temps.
Facteurs augmentant le temps avant récidive (effet
protecteur, coefficients positifs)
Certaines variables sont associées à un temps de récidive plus
long, indiquant qu’elles ralentissent le processus de
réincarcération. L’âge est un facteur clé (coef = 0.0197, p <
0.001) : chaque année supplémentaire augmente
significativement le temps avant récidive, confirmant que les
détenus plus âgés ont un risque plus faible de retourner en prison
rapidement. De plus, les individus ayant commis des infractions
violentes (coef = 0.4364, p < 0.001) ou des
infractions contre l’ordre public (coef =
0.2529, p < 0.05) mettent plus de temps avant de récidiver.
Cette tendance peut être expliquée par des peines plus longues
et un suivi post-libération plus strict pour ces
infractions.
Facteurs réduisant le temps avant récidive (effet
accélérateur, coefficients négatifs)
À l’inverse, certaines variables sont associées à une récidive plus
rapide. Être un homme (coef = -0.3820, p <
0.001) réduit significativement le temps avant récidive,
confirmant que les hommes récidivent plus vite que les femmes. De même,
les individus ayant commis des infractions classées
“Other” (coef = -0.5494, p < 0.001) sont
plus susceptibles de récidiver rapidement, ce qui
souligne l’importance d’un suivi renforcé pour ces
détenus. Enfin, les détenus sous Work Release
(coef = -0.3214, p < 0.001) récidivent plus
rapidement que ceux libérés après une peine complète, ce qui
remet en question l’efficacité du programme et suggère un besoin
d’amélioration dans l’accompagnement post-libération.
Facteurs non significatifs (p > 0.05)
Certaines variables n’ont pas d’effet significatif sur le temps avant
récidive. La race ne semble pas influencer le délai de
récidive, ce qui confirme les résultats du modèle de Cox où les
différences raciales observées dans les courbes de survie ne sont pas
statistiquement significatives après ajustement pour d’autres variables.
De plus, les infractions contre la propriété
n’affectent pas significativement le temps avant récidive, ce qui
suggère que leur impact est similaire à celui de la catégorie de
référence.
Analyse de la distribution et de la qualité du
modèle
Le paramètre de l’échelle (scale = 0.999) est
proche de 1, indiquant que le taux de récidive
reste relativement constant dans le temps et ne présente pas
d’accélération ou de ralentissement significatif après libération. Le
test du Chi² (p < 0.001) confirme que le modèle est
globalement significatif, validant l’importance des variables incluses
dans l’explication du temps avant récidive.
Conclusion et Implications
Ce modèle de Weibull met en évidence plusieurs facteurs
influençant le temps avant récidive. Les hommes, les
individus en Work Release et ceux ayant commis des infractions “Other”
récidivent plus rapidement, ce qui souligne l’importance de
politiques de suivi post-libération adaptées à ces groupes. Les
détenus plus âgés, ceux ayant commis des infractions violentes ou contre
l’ordre public mettent plus de temps à récidiver, possiblement
en raison de peines plus longues et d’un suivi plus strict. La
race ne semble pas être un facteur déterminant du temps avant
récidive, ce qui suggère que d’autres variables, comme les
conditions de réinsertion, jouent un rôle plus important.
NB: Vous trouverez en annexe d’autres tests à titre exploratoire.
## Sample size: 3172
## Number of deaths: 1136
## Number of trees: 1000
## Forest terminal node size: 15
## Average no. of terminal nodes: 140.619
## No. of variables tried at each split: 3
## Total no. of variables: 5
## Resampling used to grow trees: swor
## Resample size used to grow trees: 2005
## Analysis: RSF
## Family: surv
## Splitting rule: logrank *random*
## Number of random split points: 5
## (OOB) CRPS: 5.25723921
## (OOB) stand. CRPS: 0.14403395
## (OOB) Requested performance error: 0.42638329
Les modèles traditionnels de survie, comme Kaplan-Meier ou le modèle de Cox, offrent une bonne capacité explicative et descriptive. Cependant, leurs performances peuvent être limitées lorsqu’il s’agit de données non linéaires. Pour surmonter ces limitations, les algorithmes d’apprentissage automatique constituent une alternative efficace, permettant de mieux capturer la complexité et la non-linéarité des données.
Dans notre étude, nous avons utilisé l’algorithme des Forêts Aléatoires de Survie (RSF) afin de mieux prédire le risque de récidive d’un individu. Une telle approche permettrait d’adapter plus finement les politiques de réinsertion en fonction des caractéristiques spécifiques de chaque personne.
Dans ce modèle, nous disposons de 3172 observations, dont 1136 individus ayant récidivé. La forêt aléatoire est composée de 1000 arbres, chacun contenant en moyenne 140 à 141 feuilles, avec environ 15 individus par feuille.
L’erreur de prédiction, mesurée par l’erreur Out-Of-Bag (OOB), est de 0,426, ce qui indique que le modèle fournit des prédictions significativement meilleures qu’un choix aléatoire.
Le graphique ci-dessus permet de visualiser l’erreur de prédiction en fonction du nombre d’arbres dans le modèle, ainsi que l’importance des variables.
À l’exception de la variable race, qui présente une importance négative, toutes les autres variables ont une importance positive. Parmi elles, la variable offense_type se distingue comme la plus influente. La structure de cette importance vient confirmer le test des risques proportionnels que nous avions fait plus haut dans le modèle de COX.
En ce qui concerne l’évolution de l’erreur, nous observons une fluctuation autour de 0,426, avec une baisse jusqu’à 600 arbres, suivie d’une légère augmentation par la suite.
Afin d’améliorer la qualité de notre modèle, nous allons procéder à une validation croisée afin d’identifier les meilleurs hyper-paramètres.
| ntree | mtry | nodesize | MeanOOB | |
|---|---|---|---|---|
| 19 | 200 | 2 | 15 | 0.4245309 |
La validation croisé nous permet d’identifier les hyper-paramètres suivant :
Notre modèle final est alors construit en tenant compte de ces hyper-paramètres
## Sample size: 3172
## Number of deaths: 1136
## Number of trees: 200
## Forest terminal node size: 15
## Average no. of terminal nodes: 129.055
## No. of variables tried at each split: 2
## Total no. of variables: 5
## Resampling used to grow trees: swor
## Resample size used to grow trees: 2005
## Analysis: RSF
## Family: surv
## Splitting rule: logrank *random*
## Number of random split points: 5
## (OOB) CRPS: 5.22143404
## (OOB) stand. CRPS: 0.14305299
## (OOB) Requested performance error: 0.42360873
Comme nous le montre la sortie R du modèle, nous avons réussi à réduire l’erreur de prédiction à 0,424, bien que cette amélioration soit de l’ordre du troisième décimal.
Avec une erreur de prédiction inférieur à 0,5, ce modèle a une meilleure prédiction que ce que peut faire le hasard pure (erreur de prédiction de 0,5).
L’analyse du graphique ci-dessus montre que la courbe de survie de la Forêt Aléatoire de Survie n’est pas linéaire, contrairement à celle du modèle de Kaplan-Meier. Elle décroît par paliers jusqu’à 0,84, contre environ 0,65 pour la courbe de survie de Kaplan-Meier.
Cette différence s’explique par le fait que l’algorithme des Forêts Aléatoires de Survie prend en compte un plus grand nombre de variables caractéristiques des individus dans la modélisation.
| C_index_COX | C_index_Weibull | C_index_RSF |
|---|---|---|
| 0.598 | 0.598 | 0.575 |
Après avoir analysé la significativité et l’importance des variables, ainsi qu’estimé les hyperparamètres du modèle de forêt aléatoire de survie, nous avons entraîné trois modèles distincts : un modèle de Cox, un modèle de Weibull et un modèle de forêt aléatoire de survie.
L’analyse du tableau des C-index des modèles montre que, parmi les trois, la Forêt Aléatoire de Survie présente la plus faible qualité prédictive (C_index = 0.575). En revanche, avec un (C-index = 0.598), les modèles de Cox et de Weibull affichent des performances similaires.
| df | AIC | |
|---|---|---|
| cox_model | 7 | 15964.05 |
| weibull_model | 9 | 11299.09 |
Étant donné que les modèles de Cox et de Weibull présentent des performances similaires en termes de C-index, nous avons comparé leurs AIC. Le modèle de Weibull, affichant l’AIC le plus faible, semble offrir une meilleure adéquation aux données. Nous avons donc choisi de le conserver.
##
## Call:
## survreg(formula = Surv(survival_months, reincarcerated) ~ .,
## data = don_train, dist = "weibull")
## Value Std. Error z p
## (Intercept) 4.04922 0.15908 25.45 < 2e-16
## sexMale -0.31487 0.10176 -3.09 0.002
## age 0.01965 0.00320 6.14 8.3e-10
## offense_typeOther -0.55027 0.10251 -5.37 8.0e-08
## offense_typeProperty 0.12432 0.08427 1.48 0.140
## offense_typePublic Order 0.21793 0.11141 1.96 0.050
## offense_typeViolent 0.43141 0.09315 4.63 3.6e-06
## supervision_typeWork Release -0.33013 0.06850 -4.82 1.4e-06
## Log(scale) -0.00709 0.02891 -0.25 0.806
##
## Scale= 0.993
##
## Weibull distribution
## Loglik(model)= -5640.5 Loglik(intercept only)= -5710.3
## Chisq= 139.46 on 7 degrees of freedom, p= 6.6e-27
## Number of Newton-Raphson Iterations: 5
## n= 2854
Pour estimer ce modèle, nous avons sélectionné uniquement les variables que nous jugeons pertinentes, à savoir le sexe (sex), l’âge (age), le type d’infraction (offense_type) et le type de supervision (supervision_type).
La encore, le paramètre de l’échelle (scale = 0.993) est proche de 1, indiquant que le taux de récidive reste relativement constant dans le temps. Ce paramètre d’echelle montre également que la distribution des temps de survie ressemble fortement à une loi exponentielle. Le test du Chi² (p << 0.05) confirme que le modèle est globalement significatif.
Les coefficients de ce modèle confirme ce que nous avions vu dans le modèle de Weibull plus haut. Nous pouvons distinguer les facteurs suivant. Nous pouvons distinguer les facteurs comme l’âge (plus l’âge augmente, moins les individus récidivent), les infractions du type violentes, infractions contre l’ordre public et les infractions contre la propriété qui ont un temps de récidive plus long par rapport au type d’infraction Drug.
Pour les facteurs qui réduisent le temps avant le récidive, nous pouvons distinguer les facteurs comme le sexe male (réduit le temps de récidiver par rapport au sexe femele), les infractions du type “Other” (réduit le temps de récidiver par rapport au type d’infraction Drug), et enfin, les détenus sous Work Release récidivent plus rapidement que ceux libérés après une peine complète.
La gestion de la récidive carcérale est un défi complexe, mais l’identification des facteurs influençant la réincarcération peut aider les décideurs à mieux orienter leurs politiques afin de réduire le taux de retour en prison.
Le modèle de Weibull, que nous avons sélectionné, présente à la fois un intérêt explicatif et prédictif. D’un côté, son aspect explicatif permet aux décideurs d’identifier des tendances générales et d’adapter les politiques de réinsertion en fonction des profils types. D’un autre côté, son aspect prédictif offre la possibilité de personnaliser les interventions en fonction des caractéristiques individuelles des détenus.
Nos analyses montrent que certains facteurs augmentent significativement le risque de récidive. En particulier, les individus de sexe masculin, ceux ayant commis une infraction classée dans la catégorie Other, ainsi que les détenus sous le régime de Work Release, ont une probabilité plus élevée de récidiver rapidement. À l’inverse, les femmes semblent avoir un risque plus faible de retour en détention.
Toutefois, cette étude a rencontré certaines limites méthodologiques, notamment la présence de valeurs manquantes pour la durée de suivi des individus n’ayant pas récidivé, ce qui a pu impacter la robustesse des estimations.
En termes de qualité des modèles, les C-index obtenus sont globalement autour de 0,60 (inférieurs à 0,70). Cela indique que les modèles prédissent mieux que le hasard, mais avec une précision encore perfectible. Des approches plus avancées, comme les modèles de survie avec variables latentes ou l’intégration d’algorithmes d’apprentissage profond, pourraient être explorées pour améliorer ces performances.
Les hommes (courbe rouge) présentent un risque cumulé de récidive plus élevé que les femmes (courbe noire) sur toute la période. À 40 mois, le risque cumulé atteint environ 0.42 pour les hommes contre 0.28 pour les femmes, confirmant une plus forte propension des hommes à récidiver. L’écart entre les deux courbes se creuse avec le temps, suggérant que la différence de récidive entre sexes s’accentue progressivement après la libération.
Les infractions “Other” (rouge) présentent le risque cumulé de récidive le plus élevé, dépassant 0.65 à 40 mois, indiquant une récidive plus rapide et plus fréquente. De manière générale, Les infractions “Other” et celles liées aux biens ou aux drogues sont les plus associées à la récidive, tandis que les infractions violentes récidivent le moins.
Les détenus en Work Release récidivent plus vite et plus souvent, suggérant un besoin d’un suivi post-libération renforcé.
Les Amérindiens/Alaska Natives (noir) présentent le risque cumulé de récidive le plus élevé, atteignant environ 0.6 à 40 mois, ce qui indique une récidive plus fréquente et rapide. Les Asiatiques/Insulaires du Pacifique (rouge) ont le risque cumulé de récidive le plus faible, ce qui suggère une meilleure réinsertion ou un suivi plus efficace. Les sauts marqués chez les Amérindiens/Alaska Natives et Les Asiatiques/Insulaires du Pacifique montrent une concentration d’événements de récidive à des moments spécifiques, ce qui peut être lié à des facteurs structurels (ex: fin de probation, manque de suivi social).
## Call:
## survdiff(formula = Surv(survival_months, reincarcerated) ~ sex,
## data = iowa_data, rho = 1)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## sex=Female 425 96.5 133 9.99 14
## sex=Male 2747 836.9 800 1.66 14
##
## Chisq= 14 on 1 degrees of freedom, p= 2e-04
## Call:
## survdiff(formula = Surv(survival_months, reincarcerated) ~ race,
## data = iowa_data, rho = 1)
##
## N Observed Expected (O-E)^2/E
## race=American Indian or Alaska Native 75 28.02 20.71 2.583742
## race=Asian or Pacific Islander 26 5.59 8.22 0.840321
## race=Black 655 194.58 195.01 0.000947
## race=Hispanic 170 50.58 50.82 0.001130
## race=White 2246 654.60 658.62 0.024504
## (O-E)^2/V
## race=American Indian or Alaska Native 3.14956
## race=Asian or Pacific Islander 1.01803
## race=Black 0.00144
## race=Hispanic 0.00143
## race=White 0.09983
##
## Chisq= 4.1 on 4 degrees of freedom, p= 0.4
##
## Call:
## survreg(formula = Surv(survival_months, reincarcerated) ~ sex +
## race + age + offense_type + supervision_type, data = iowa_data,
## dist = "exponential")
## Value Std. Error z p
## (Intercept) 3.85703 0.22626 17.05 < 2e-16
## sexMale -0.38231 0.09829 -3.89 0.0001
## raceAsian or Pacific Islander 0.51179 0.41550 1.23 0.2180
## raceBlack 0.31763 0.18344 1.73 0.0834
## raceHispanic 0.21233 0.21322 1.00 0.3193
## raceWhite 0.27487 0.17525 1.57 0.1168
## age 0.01975 0.00308 6.42 1.4e-10
## offense_typeOther -0.54979 0.09861 -5.58 2.5e-08
## offense_typeProperty 0.09772 0.08069 1.21 0.2259
## offense_typePublic Order 0.25304 0.10904 2.32 0.0203
## offense_typeViolent 0.43672 0.08957 4.88 1.1e-06
## supervision_typeWork Release -0.32159 0.06561 -4.90 9.5e-07
##
## Scale fixed at 1
##
## Exponential distribution
## Loglik(model)= -6191.8 Loglik(intercept only)= -6271.5
## Chisq= 159.4 on 11 degrees of freedom, p= 1.8e-28
## Number of Newton-Raphson Iterations: 5
## n= 3172
## df AIC
## weibull_model 9 11299.09
## exp_model 12 12407.58
L’Akaike Information Criterion (AIC) est une mesure qui permet de comparer la qualité de plusieurs modèles statistiques : plus l’AIC est faible, meilleur est le modèle en termes de compromis entre ajustement et complexité.
Le modèle exponentiel présente un AIC légèrement plus faible que le modèle de Weibull, ce qui indique qu’il s’ajuste légèrement mieux aux données tout en étant plus simple (il a 12 degrés de liberté contre 13 pour Weibull). Toutefois, la différence d’AIC entre les deux modèles est minime (~2 points), ce qui signifie que les performances des deux modèles sont très proches.
Conclusion : Le modèle exponentiel est légèrement préféré, mais la faible différence d’AIC suggère que le modèle de Weibull reste une alternative valide, notamment si l’on suspecte que le taux de récidive varie avec le temps (ce que Weibull permet de modéliser).